138 research outputs found

    Training a personal alert system for research information recommendation

    Get PDF
    Information Systems, and in particular Current Research Information Systems (CRISs), are usually quite difficult to query when looking for specific information, due to the huge amounts of data they contain. To solve this problem, we propose to use a personal search agent that uses fuzzy and rough sets to inform the user about newly available information. Additionally, in order to automate the operation of our solution and to provide it with sufficient information, a document classification module is developed and tested. This module also generates fuzzy relations between research domains that are used by the agent during the mapping process

    Metadata impact on research paper similarity

    Get PDF
    While collaborative filtering and citation analysis have been well studied for research paper recommender systems, content-based approaches typically restrict themselves to straightforward application of the vector space model. However, various types of metadata containing potentially useful information are usually available as well. Our work explores several methods to exploit this information in combination with different similarity measures

    Finding similar research papers using language models

    Get PDF
    The task of assessing the similarity of research papers is of interest in a variety of application contexts. It is a challenging task, however, as the full text of the papers is often not available, and similarity needs to be determined based on the papers' abstract, and some additional features such as authors, keywords, and journal. Our work explores the possibility of adapting language modeling techniques to this end. The basic strategy we pursue is to augment the information contained in the abstract by interpolating the corresponding language model with language models for the authors, keywords and journal of the paper. This strategy is then extended by finding topics and additionally interpolating with the resulting topic models. These topics are found using an adaptation of Latent Dirichlet Allocation (LDA), in which the keywords that were provided by the authors are used to guide the process

    Intelligent methods for information filtering of research resources

    Get PDF
    This thesis presents several content-based methods to address the task of filtering research resources. The explosive growth of the Web in the last decades has led to an important increase in available scientific information. This has contributed to the need for tools which help researchers to deal with huge amounts of data. Examples of such tools are digital libraries, dedicated search engines, and personalized information filters. The latter, also known as recommenders, have proved useful for non-academic purposes and in the last years have started to be considered for recommendation of scholarly resources. This thesis explores new developments in this context. In particular, we focus on two different tasks. First we explore how to make maximal use of the semi-structured information typically available for research papers, such as keywords, authors, or journal, to assess research paper similarity. This is important since in many cases the full text of the articles is not available and the information used for tasks such as article recommendation is often limited to the abstracts. To exploit all the available information, we propose several methods based on both the vector space model and language modeling. In the first case, we study how the popular combination of tf-idf and cosine similarity can be used not only with the abstract, but also with the keywords and the authors. We also combine the abstract and these extra features by using Explicit Semantic Analysis. In the second case, we estimate separate language models based on each of the features to subsequently interpolate them. Moreover, we employ Latent Dirichlet Allocation (LDA) to discover latent topics which can enrich the models, and we explore how to use the keywords and the authors to improve the performance of the standard LDA algorithm. Next, we study the information available in call for papers (CFPs) of conferences to exploit it in content-based methods to match users with CFPs. Specifically, we distinguish between textual content such as the introductory text and topics in the scope of the conference, and names of the program committee. This second type of information can be used to retrieve the research papers written by these people, which provides the system with new data about the conference. Moreover, the research papers written by the users are employed to represent their interests. Again, we explore methods based on both the vector space model and language modeling to combine the different types of information. The experimental results indicate that the use of these extra features can lead to significant improvements. In particular, our methods based on interpolation of language models perform well for the task of assessing the similarity between research papers. On the contrary, when addressing the problem of filtering CFPs the methods based on the vector space model are shown to be more robust.Dit proefschrift stelt verschillende content-gebaseerde methoden voor om het probleem van het filteren van onderzoeksgerelateerde resources aan te pakken. De explosieve groei van het internet in de laatste decennia heeft geleid tot een belangrijke toename van de beschikbare wetenschappelijke informatie. Dit heeft bijgedragen aan de behoefte aan tools die onderzoekers helpen om om te gaan met grote hoeveelheden van data. Voorbeelden van dergelijke tools zijn digitale bibliotheken, specifieke zoekmachines, en gepersonaliseerde informatiefilters. Deze laatste, ook gekend als aanbevelingssystemen, hebben ruimschoots hun nut bewezen voor niet-academische doeleinden, en in de laatste jaren is men ze ook beginnen inzetten voor de aanbeveling van wetenschappelijke resources. Dit proefschrift exploreert nieuwe ontwikkelingen in deze context. In het bijzonder richten we ons op twee verschillende taken. Eerst onderzoeken we hoe we maximaal gebruik kunnen maken van de semigestructureerde informatie die doorgaans beschikbaar is voor wetenschappelijke artikels, zoals trefwoorden, auteurs, of tijdschrift, om de gelijkenis tussen wetenschappelijke artikels te beoordelen. Dit is belangrijk omdat in veel gevallen de volledige tekst van de artikelen niet beschikbaar is en de informatie gebruikt voor taken zoals aanbeveling van artikels vaak beperkt is tot de abstracts. Om alle beschikbare informatie te benutten, stellen we een aantal methoden voor op basis van zowel het vector space model en language models. In het eerste geval bestuderen we hoe de populaire combinatie van tf-idf en cosinussimilariteit gebruikt kan worden met niet alleen de abstract, maar ook met de trefwoorden en de auteurs. We combineren ook de abstract met deze extra informatie door het gebruik van Explicit Semantic Analysis. In het tweede geval schatten we afzonderlijke taalmodellen die gebaseerd zijn op de verschillende soorten informatie om ze daarna te interpoleren. Bovendien maken we gebruik van Latent Dirichlet Allocation (LDA) om latente onderwerpen te ontdekken die de modellen kunnen verrijken, en we onderzoeken hoe de trefwoorden en de auteurs gebruikt kunnen worden om de prestaties van de standaard LDA algoritme te verbeteren. Vervolgens bestuderen we de informatie beschikbaar in de call for papers (CFPs) van conferenties om deze te exploiteren in content-gebaseerde methoden om gebruikers te matchen met CFPs. Met name maken we onderscheid tussen tekstuele inhoud, zoals de inleidende tekst en onderwerpen in het kader van de conferentie, en de namen van de programmacommissie. Dit tweede type informatie kan gebruikt worden om de artikels geschreven door deze mensen te achterhalen, wat het systeem voorziet van bijkomende gegevens over de conferentie. Bovendien worden de artikels geschreven door de gebruikers gebruikt om hun interesses te voorstellen. Opnieuw onderzoeken we methoden gebaseerd op zowel het vector space model als op language models om de verschillende soorten informatie te combineren. De experimentele resultaten tonen aan dat het gebruik van deze extra informatie kan leiden tot significante verbeteringen. In het bijzonder presteren onze methoden op basis van interpolatie van taalmodellen goed voor de taak van het beoordelen van de gelijkenis tussen wetenschappelijke artikels. Daarentegen zijn de methoden gebaseerd op het vector space model meer robuust voor het probleem van het filteren van CFPs

    An exploratory study on content-based filtering of call for papers

    Get PDF
    Due to the increasing number of conferences, researchers need to spend more and more time browsing through the respective calls for papers (CFPs) to identify those conferences which might be of interest to them. In this paper we study several content-based techniques to filter CFPs retrieved from the web. To this end, we explore how to exploit the information available in a typical CFP: a short introductory text, topics in the scope of the conference, and the names of the people in the program committee. While the introductory text and the topics can be directly used to model the document (e.g. to derive a tf-idf weighted vector), the names of the members of the program committee can be used in several indirect ways. One strategy we pursue in particular is to take into account the papers that these people have recently written. Along similar lines, to find out the research interests of the users, and thus to decide which CFPs to select, we look at the abstracts of the papers that they have recently written. We compare and contrast a number of approaches based on the vector space model and on generative language models

    Feature Selection with Fuzzy Decision Reducts

    Get PDF
    In this paper, within the context of fuzzy rough set theory, we generalize the classical rough set framework for data-based attribute selection and reduction, based on the notion of fuzzy decision reducts. Experimental analysis confirms the potential of the approach

    Resistencias, Reivindicaciones y Reorganización: El Rol de las Comunidades Indígenas en los Casos de Colombia y México

    Get PDF
    El final de siglo XX, en el contexto de América Latina, ha sido el inicio de algunos cambios importantes y significativos para el desarrollo de la democracia; entre ellos: la participación ciudadana en los acontecimientos sociopolíticos, los avances y logros en la lucha por el respeto de los derechos humanos y la construcción de espacios públicos para el debate de lo público. Al igual que en la redefinición de la noción de ciudadanía y en el incremento notable de movimientos sociales, que han ido creando un imaginario colectivo que sitúa la perspectiva de la democracia más allá de elecciones libres y legales. Un claro ejemplo de lo último es la acción colectiva de los grupos indígenas de la región. Por sus movilizaciones masivas y actos de resistencia civil, han logrado cambios importantes para el bienestar de sus comunidades. Su éxito muestra claramente el alto grado de cohesión social existente cuando un grupo social se une, se organiza, trabaja con coraje, creatividad y constancia en contra de las limitaciones que imponen hoy los Estados modernos. Este escrito pretende mostrar y considerar, de manera sucinta, tales acciones y resultados a través de las experiencias de las comunidades indígenas de Colombia y México, dos países que han experimentado incrementos considerables de la participación ciudadana a finales del siglo XX

    Percepción sobre la calidad de vida de los estudiantes del Programa Ciencias del deporte y la Recreación

    Get PDF
    Se realizó un estudio de percepción de calidad de vida por medio del cuestionario general WOQOL- BREF , el cual contiene dos preguntas de calidad de vida global, salud general y una pregunta de cada una de las 24 facetas incluidas en el WHOQOL 100. Contiene cuatro áreas de calidad de vida, física, psicológica, relaciones sociales y ambiente, que se evalúan de uno, el más bajo nivel, a cinco, el más alto nivel de calidad de vida percibida. El instrumento fue aplicado a 550 estudiantes del programa Ciencias del Deporte y la Recreación de la Universidad Tecnológica de Pereira: 192 mujeres y 358 hombres como muestra final. Los resultados evidenciaron promedios similares en las áreas física y psicológica siendo de (4.2 para el 46% y 4.1 para el 42%) respectivamente; ambos resultados se clasificaron en el nivel "muy alto"). En las dimensiones ambiental y social los resultados fueron (3.7 para el 36% y 4.2 para el 43%); la clasificación se ubicó en el nivel "alto", igual para ambas. El promedio global de calidad de vida de los estudiantes fue de 4.0 con una desviación estándar de 0.9. El nivel percibido fue muy similar según: edad, género, estrato socioeconómico, semestre del Programa y realización o no de actividades físicas o recreativas
    corecore